[论文推荐|AAAI2021] MANGO:一种注意力掩码引导的单阶段场景文本检测与识别方法
本文简要介绍AAAI2021录用论文“ MANGO: A Mask Attention Guided One-Stage Scene Text Spotter”的主要工作。受视觉机制的启发,本文将text spotting视为一个attending然后reading的问题,直接一次性读取所有关注文本区域的文本内容,并基于此提出了一种新颖的单阶段端到端识别技术MANGO。
一、背景介绍
绝大多数End-to-endtext Spotting算法通常均为两阶段网络,采用ROI操作来连接检测模块和识别模块,识别模块对检测结果比较敏感。现有的单阶段End-to-end Text Spotting算法仅检测识别单个字符,没有考虑字符间的上下文语义信息[1]。实际上,当人们阅读场景文字时,只需要指出文字粗略位置并给出识别结果,而无需精确描绘文本的边界轮廓。受到该视觉机制的启发,本文将Text Spotting视为一个Attending然后Reading的问题,直接一次性读取所有关注文本区域的文本内容,并基于此提出了一种新颖的单阶段端到端识别技术MANGO。作者来自海康威视、同济大学、浙江大学。
二、方法概况
1. MANGO
1.1 网络结构
MANGO主要由三个可学习的模块组成:
1. 用于学习文本实例的空间注意力的位置敏感注意力模块(PMA),该模块由实例级注意力模块(IMA)和字符级注意模块(CMA)组成;
2. 用于将关注的文本实例特征解码为字符序列的序列解码模块;
3. 用于在推理阶段提供粗略文本位置信息的全局文本中心线分割模块。
MANGO的优势在于:
1.2 PMA模块
1.3 序列解码模块
1.4 中心线分割模块
1.5 模型优化
2. 实验
2.1 端到端识别性能评价
ICDAR2013和ICDAR2015实验结果如下:
Total-Text和CTW1500实验结果如下:
2.2 消融实验
如上所述,模型可以仅使用粗略文本位置信息训练。为了证明这一点,在倾斜文本数据集ICDAR2015和弯曲文本数据集Total-Text上使用矩形框标注替代原始标注进行训练。从Table5中可以看出仅使用粗略文本位置信息进行训练也可以达到较好的识别效果。
2.3 CCPD实验结果
为了验证提出算法的泛化能力,在CCPD车牌数据集上进行验证。由于CCPD车牌数据集每张图像仅包含一个车牌,因此设置S=1,去除检测分支以及IMA模块,使得MANGO退化为单文本识别算法。这也启发我们,在一些大图中,如果先验的知道仅包含一个文本串,模型是可以无需任何检测标定而直接进行端到端的大图识别。
2.4 可视化
三、总结
四、一些思考
后续可能改进方向:由于生成的是全局的注意力掩码,因此特征图大部分位置的值都为0,后续可以考虑将特征图映射到另一个特征空间,减少因为信息冗余带来的计算量和显存消耗。
论文下载地址
arxiv:https://arxiv.org/pdf/2012.04350.pdf https://davar-lab.github.io/publication.html
参考文献
[1] Xing, L.;Tian, Z.; Huang, W.; and Scott, M. R. 2019. Convolutional character networks.In ICCV, 9126–9136.
[2] Wang, X.; Zhang, R.; Kong, T.; Li, L.; and Shen, C.2020c. SOLOv2: Dynamic, Faster and Stronger. arXiv preprint arXiv:2003.10152
[3] Wang, W.; Xie, E.; Li, X.; Hou, W.;Lu, T.; Yu, G.; and Shao, S. 2019a. Shape Robust Text Detection With Progressive Scale Expansion Network. In CVPR, 9336–9345.
撰稿:陈 颖编排:高 学
审校:连宙辉
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们:D